iT邦幫忙

2023 iThome 鐵人賽

DAY 17
0
AI & Data

關於我轉生變成AI詠唱師這檔事系列 第 17

異世界的知識儲藏:從大數據中提取知識精粹

  • 分享至 

  • xImage
  •  

在這個充滿奇幻與科技的異世界,我們將探索一種全新的知識儲藏魔法。這種魔法利用了一種名為 embeddings 的神秘力量,能夠從大量的數據中提取知識的精粹,帶領我們走向更深層的知識領域。

1. 加載數據集

在這個例子中,我們使用了來自 Amazon 的 fine-food reviews 數據集。這個數據集包含了截至 2012 年 10 月的 568,454 條食品評論。我們將使用這個數據集的一個子集,包含了 1,000 條最近的評論來進行說明。每條評論都有一個 ProductId、UserId、Score、review title (Summary) 和 review body (Text)。

import pandas as pd
import tiktoken
from openai.embeddings_utils import get_embedding

# 加載數據
input_datapath = "data/fine_food_reviews_1k.csv"
df = pd.read_csv(input_datapath, index_col=0)
df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]
df = df.dropna()
df["combined"] = ("Title: " + df.Summary.str.strip() + "; Content: " + df.Text.str.strip())

2. 獲取 Embeddings 並保存

在加載數據集並進行初步處理後,我們將獲取每條評論的 embeddings,並將它們保存下來,以便未來使用。

# 獲取 embeddings
df["embedding"] = df.combined.apply(lambda x: get_embedding(x, engine=embedding_model))
df.to_csv("data/fine_food_reviews_with_embeddings_1k.csv")

透過這種方式,我們可以將大量的文本數據轉化為高維的向量,這些向量可以代表文本的語義信息。這將為我們提供一種強大的工具,來探索和理解這個異世界中隱藏的知識。

3. 探索與應用

獲取 embeddings 之後,我們可以利用這些 embeddings 來進行各種有趣的探索和應用,例如找到語義上相似的評論,或者建立一個基於內容的推薦系統。這將開啟一個全新的知識領域,讓我們能夠更深入地理解這個世界的奧秘。

在這個奇幻的異世界中,知識就像是一種強大的魔法,能夠賦予我們無窮的力量。通過學習和掌握這種知識儲藏的魔法,我們將能夠更好地探索這個世界,發現更多的未知領域。


上一篇
異世界的知識推薦:視覺化和進階推薦系統
下一篇
魔法流量的控制:如何巧妙應對流量限制
系列文
關於我轉生變成AI詠唱師這檔事31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言